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摘要 : 


[ 目的 】 准确 理解 文本 信息 中 潜在 的 知识 关联 ， 丰富 文本 知识 挖掘 的 方法 。[ 方法 ] 将 主题 模型 和 关联 规 
则 相 结 合 , 运用 LDA 主题 模型 抽取 文本 中 的 主题 集合 , 在 实现 文本 降 维 的 同时 , 实现 文本 在 语义 空间 的 表达 ; 
通过 关联 规则 进一步 挖掘 文本 中 主题 的 语义 关联 。[ 结果 ] 设置 合理 的 支持 度 和 置信 和 度 阔 值 , 可 以 有 效 地 挖掘 文 


本 中 洪 在 知识 的 关联 , 实现 对 文本 的 深入 “理解 >。[ 局 限 ] 数据 预 处 理 过 程 中 , 用 户 自 定义 词典 的 设计 会 对 实验 


结果 产生 一 定 的 影响 。[ 结论 ] 提出 一 种 非 结构 化 文本 信 ， 


识 发 现 的 效果 。 
关键 词 : 关联 规则 
分 类 号 : G350 


主题 模型 ”文本 主题 


息 潜在 语义 关联 挖掘 的 新 思路 ,改善 了 针对 文本 信息 知 
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随 着 信息 技术 和 互联 网 通信 技术 的 发 展 与 普及 ， 
产生 了 大 量 的 文本 信息 , 文本 信息 的 快速 增长 使 得 人 
们 在 信息 处 理 和 检索 中 面临 前 所 未 有 的 挑战 。 对 文本 
的 理解 , 不仅 有 助 于 信息 检索 、 内 容 发 现 等 情报 工作 
的 开展 ,同时 对 信息 的 有 效 分 类 、 组 织 也 提供 了 借鉴 。 
然而 文本 信息 的 组 织 形 式 是 松散 的 ,对 一 般 用 户 来 说 , 
过 量 的 文本 信息 反而 使 得 信息 使 用 率 降低 , 使 人 们 迷 
失 在 复杂 的 信息 空间 中 心 。 海 量 的 文本 信息 已 经 远 远 
超出 人 们 的 理解 和 概括 能 力 , 通过 人 工 的 方式 去 查找 
有 用 的 信息 并 凝练 知识 已 变 得 不 可 能 ， 如 何 利 用 计算 
机 有 效 地 组 织 和 管理 这 些 文本 资源 ,并 运用 信息 技术 
帮助 用 户 在 大 量 文本 中 挖掘 隐 含 的 知识 成 为 当前 信息 
技术 领域 面临 的 一 大 挑战 。 

随 着 对 文本 认识 的 发 展 ， 人们 开始 追求 对 文本 本 
身 更 深 的 理解 ， 从 而 使 计算 机 甚至 人 们 能 够 更 好 地 


了 中 


“理解 "文本 。 对 文本 的 深入 理解 一 方面 可 以 完成 文本 
挖掘 或 自然 语言 处 理 , 并 实现 如 自动 人 工 问 答 等 信息 
服务 。 男 一 方面 也 能 挖 据 文本 潜在 语义 ,为 信息 工作 
者 提供 相关 的 技术 支持 。 在 主题 模型 出 现 以 前 , 信息 
处 理 和 文本 挖掘 领 域 对 文本 的 表示 主要 采用 空间 向 量 
模型 外 和 统计 语言 模型 中 ,这 两 种 方式 虽然 在 方法 上 存 
在 差异 , 但 也 有 很 多 相同 点 , 都 能 够 将 一 个 文档 实现 
“文本 一 词 ”的 映射 或 表示 。 

传统 的 文本 表示 方法 将 文本 表现 在 词典 空间 上 ， 
这 种 方式 会 忽略 文本 中 很 多 重要 的 信息 ,无 法 达到 文 
本 语义 的 理解 。 主 题 模 型 引入 语义 维度 , 将 文本 信息 
在 语义 层 实现 了 浓缩 ， 即 实现 “文本 一 语义 一 词 的 语 
义 映 射 。 本 文 将 关联 规则 与 主题 模型 相 结合 ， 从 文本 
的 主题 模型 人 手 , 构建 大 量 文本 的 主题 集合 , 通过 关 
联 规则 算法 , 构建 文本 主题 的 关联 关系 , 实现 对 文本 
主题 的 深度 挖 据 。 并 以 有 关 “ 一 带 一 路 ”的 新 闻 报道 文 
本 为 例 , 实现 文本 信息 的 主题 关联 挖掘 实 验 。 


通讯 作者 : 阮 光 册 ，ORCID: 0000-0001-8685-5234, E-mail: rgc1976@126.com。 
*# 本 文系 上 海 哲 学 社会 科学 一 般 项 目 “ 基 于 主题 模型 的 学 科 交 叉 知 识 发 现 研 究 ”( 项 目 编号 : 2016BTQ002) 的 研究 成 果 之 一 。 


现代 图 书 情报 技术 


2 相关 研究 


关联 规则 最 初 应 用 于 购物 复 问 题 分 析 外 , 通过 交 
易 数 据 库 中 频繁 购买 模式 挖掘 不 同 商品 间 的 关联 关 
系 , 发 现 隐藏 在 数据 中 的 有 价值 知识 。 随 着 关联 规则 
应 用 的 深入 研究 ,各 种 改进 和 扩展 关联 规则 的 算法 被 
应 用 于 诸多 领域 数据 集 的 频繁 模式 挖掘 中 , 用 以 揭示 
事物 间 隐 含 的 关联 。 在 改进 算法 的 同时 , 关联 规则 也 
被 应 用 到 文本 分 析 领 域 申 主要 有 两 种 方法 : 基于 关 
键 字 的 文本 关联 规则 挖掘 ; 借助 领域 本 体 进行 文本 关 
SLE EZ: HE o 

(1) 基于 关键 字 的 文本 关联 规则 挖掘 通常 分 为 两 
个 步 又 : 挖 据 文本 集中 频繁 共 现 的 关键 词 ， 形成 频繁 
项 集 ; 发 现 关 键 词 频繁 项 集 间 的 关联 规则 。 文 献 [6] 将 
文本 集中 的 文本 作为 事务 , 文本 中 的 词 作为 项 , 将 句 
子 作为 文本 基本 语义 单元 , 借助 句子 中 单词 的 共 现 关 
fk, 寻找 最 大 关联 的 关键 词组 ,生成 关联 规则 。 文 献 [7] 
采用 关联 规则 挖掘 分 子 生物 领域 的 文本 , 通过 识别 文 
本 中 的 关键 词 , 寻找 关联 规则 。 文 献 [8] 则 利用 文本 集 
中 词 的 共 现 程度 寻找 关联 规则 。 文 献 [3] 利用 关联 规则 
挖掘 中 文 文本 的 主题 词 ， 通 过 构建 候选 关键 词 的 二 元 
组 ， 过滤 掉 根本 不 可 能 成 为 关键 词汇 的 词性 组 合 。 然 
而 ， 由 于 高 频 关 键 词 存在 孤立 性 ， 因 此 在 发 现 文本 语 
义 知识 层 的 规则 时 存在 一 定 的 不 足 。 

(2) 在 本 体 领域 的 文本 关联 规则 挖掘 ， 主 要 是 通 
过 构建 领域 本 体 , 对 文本 进行 概念 抽取 ,寻找 概念 关 
系 组 合 , 统计 后 打分 , 找 出 各 层次 间 概 念 的 关联 规则 。 
文献 [10] 通 过 构建 "hotel" 领 域 本 体 ,， 采用 人 工 和 机 器 
相 结合 的 方法 , 半自动 化 抽取 文本 中 信息 ,进而 挖掘 
频繁 的 概念 组 合 ,得 到 文本 之 间 的 层次 关联 关系 。 文 
献 [11] 构 建 趾 球 评论 的 领域 本 体 , 通过 分 析 评 论文 本 
的 语言 特征 , 挖 据 文本 中 动 名 词 三 元 组 , 得 到 概念 频 
繁 集 的 组 合 , 生成 足球 评论 的 关联 规则 。 基 于 领域 本 
体 的 文本 关联 挖掘 的 特点 是 将 关键 词 抽象 到 概念 高 度 
寻找 关联 , 但 是 本 体 需要 领域 专家 建立 ,应 用 文本 类 
型 少 , 影响 了 挖掘 方法 的 通用 性 。 

综 上 所 述 ， 目 前 关联 规则 在 文本 挖掘 中 的 应 用 主 
要 还 是 对 文本 关键 词 或 概念 进行 挖 气 , 缺乏 对 文本 语 
义 层 次 的 理解 。 挖 气 大 规模 文本 集合 中 隐 含 的 知识 关 
联 仍然 存在 一 定 的 困难 。 
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为 此 , 本 文 从 文本 的 主题 模型 入手, 将 文本 的 词 
项 空间 变换 为 主题 空间 , 实现 对 文本 的 语义 降 维 , 再 
进行 关联 规则 挖掘 , 通过 控制 关联 规则 算法 的 支持 度 
和 置信 度 ,挖掘 文本 主题 的 关联 关系 ,得 到 更 深层 次 
的 文本 知识 。 


3 研究 基础 


3.1 ”主题 模型 

主题 模型 + 在 自然 语言 处 理 领 域 备 受 关注 , 主题 
可 以 看 成 是 词 项 的 概率 分 布 , 通过 词 项 在 文档 级 的 共 
现 信息 抽取 出 语义 相关 的 主题 集合 , 得 到 文本 在 低 维 
空间 中 的 表达 。 主 题 (Topic) 被 看 作 是 文本 包含 词 项 的 
概率 分 布 ， 主 题 模 型 假设 一 篇 文档 中 的 单词 可 以 交换 
次 序 而 不 影响 模型 的 训练 结果 ,这 个 假设 即 词 袋 (Bag 
of Words)。 

通常 文本 中 出 现 的 词汇 都 可 以 表达 其 主题 ,只 不 
过 与 主题 的 相关 程度 有 所 不 同 。 LDA 模型 是 一 个 包括 
了 单词 层 、 主 题 层 、 文 档 层 的 三 层 贝 叶 斯 概率 模型 。 
假设 在 一 个 文档 集 D 中 有 m 篇 文档 , BI D={di，d，， 
d，…, dm 文档 集 D 中 分 布 着 k 个 主题 Z， 即 {2Z1, Zo, 
Z3,…，Zx}， 其 中 每 个 主题 Z 都 是 一 个 基于 单词 集合 
(wi, Wo c, Wa} 的 概率 多 项 分 布 ,W 则 是 所 有 描述 主 
题 的 单词 构成 的 词汇 集合 。 
3.2 ”关联 规则 

关联 规则 则 在 从 大 量 数据 中 发 现 事务 之 间 有 趣 
的 关联 关系 ,以 揭示 隐藏 其 中 的 行为 模式 。 关 联 规则 
挖掘 通过 用 户 指定 最 小 支持 度 和 最 小 置信 和 度 寻 找事 务 
的 某 些 关联 关系 。 关 联 规则 的 处 理 可 以 分 成 两 个 步骤; 
识别 频繁 项 目 集 ; 挖掘 关联 规则 。 

假设 关联 规则 挖掘 的 事务 集合 记 为 D，D={t， 


to, Ut, tk PUO ta b 则 tk (k-1, 2, Ut n) 称 为 事务 
(Transactions)。 而 t={in iz t, im, ©, ipp im (mel, 


2, =, DURIH H (Atem). i£ I= fi, io, t, imp D 中 
全 体 项 目 组 成 的 集合 , 工 的 任何 子 集 X FI D 中 的 项 
目 集 (Itemseb。 

对 于 任意 目标 集 XY, 若 XcLYcL 并 且 XnY 
=p, X, Y ŽARKE X> Y 表示 ， 则 : 


support( X > Y) = count( X > Y)/ |D] (1) 


confidence( X — Y) = support( X — Y) /support(X) 2) 
其 中 , 支持 度 support(X > VRZ X., Y 共同 出 
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现 的 比例 , 用 来 衡量 Xo Y 在 事务 集 D 中 的 显著 性 ; 
置信 度 confidence(X > Y) 表 示 在 条 件 概率 P(Y | X) F, 
用 来 衡量 X 二 YY 在 目标 事务 集中 的 显著 性 请 ]。 
3.3 ”基于 关联 规则 的 文本 主题 深度 挖掘 

文本 信息 往往 是 围绕 某 个 主题 展开 ， 针 对 某 一 领 
域 , 信息 之 间 往 往 存在 着 直接 或 间接 的 语义 关联 , 识 
别 文本 中 具有 语义 关联 的 实体 , 将 有 助 于 人 们 对 文本 
集 的 认识 , 并 能 够 更 好 地 理解 文本 集中 隐 含 的 知识 。 

文本 的 主题 模型 实现 了 文本 在 语义 空间 上 的 表 
述 ， 基 于 关联 规则 的 文本 主题 深度 挖掘 则 希望 对 文本 
所 包含 的 主题 进行 关联 规则 发 现 , 计算 文本 中 实体 间 
语义 关联 的 强度 , 将 关联 强度 大 的 主题 进行 描述 。 

假设 文本 空间 D 上 有 主题 集合 T 和 词汇 集合 W, 
HP D={d;, dy,…, di, di 代表 第 i 篇 文本 , T={ft b, …， 
tj, tk 代表 文本 空间 中 的 第 k 个 主题 ,we W 为 第 i 
篇 文本 所 包含 的 主题 词 项 。 在 关联 规则 处 理 中 , 将 D 
表示 为 交易 组 , di 为 交易 组 中 的 第 i 项 交易 ， 由 唯一 的 
交易 标识 (TID) 和 一 组 项 列表 (ltemlist) 组 成 '，W 则 为 项 
HÆ, 由 描述 D 集合 的 主题 词 项 组 成 , 包含 wi 的 交易 
集合 表示 为 {dW € di, die D}。 

为 此 ,基于 关联 规则 的 文本 主题 深度 挖掘 的 基本 
思路 如 图 1 所 示 : 


= 
| | 

| | 
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| | 
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图 1 基于 关联 规则 的 文本 主题 挖 握 


由 图 1 可 见 , 首先 获取 所 需 的 文本 数据 集 。 针 对 
文本 数据 集 的 特征 , 构建 相应 的 专业 词 库 , 便于 进行 
分 词 、 停 用 词 等 预 处 理 。 预 处 理 后 的 文本 集 通 过 主题 
模型 对 其 进行 主题 提取 , 然后 根据 主题 模型 生成 的 
“文本 -主题 "分 布 特征 文件 ， 选取 高 概率 主题 的 特征 
词 对 文本 进行 描述 , 进而 实现 文本 基于 主题 特征 的 降 
维 。 文 本 主题 特征 降 维 的 目的 不 仅 减 小 了 文本 表示 模 
型 的 特征 向 量 的 维 数 ， 同 时 保留 了 文本 的 语义 特征 ， 
从 而 提高 信息 提取 的 效率 和 精度 。 降 维 后 的 文本 形成 
了 特征 词 项 集合 , 这 里 可 以 将 该 集合 看 作 关联 规则 的 


现代 图 书 情报 技术 


ChinaXiv 合 作 期 刊 


研究 文 


交易 组 , 集合 中 的 每 条 文本 则 是 交易 组 中 的 交易 , R 
用 关联 规则 算法 , 通过 设置 合理 的 支持 度 和 置信 和 度 阔 
值 ， 能 实现 文本 集合 中 主题 关联 的 识别 ,进而 实现 文 
本 集合 潜在 知识 的 发 现 。 

将 关联 规则 和 主题 模型 结合 ,， 对 文本 进行 主题 深 
度 挖掘 的 优势 主要 体现 在 : 

(1) 解决 了 关键 词 之 间 的 语义 关系 。 传 统 的 关键 
词 提取 大 多 为 使 用 统计 方法 提取 文本 中 的 术语 , 然而 
高 频 术语 有 可 能 是 一 个 单纯 的 词 项 , 与 文本 中 其 他 词 
项 之 间 缺 乏 语义 联系 。 

(2) 实现 文本 在 语义 空间 的 降 维 描述 。LDA 主题 
模型 作为 一 种 降 维 工具 ,在 主题 求解 过 程 中 , 通过 机 
器 学 习 , 能 够 得 到 一 个 文档 在 主题 空间 的 表示 。 此 过 
程 将 词 项 空间 的 文档 转换 成 主题 空间 的 表示 ， 有 效 地 
实现 了 文本 维度 的 降低 。 

(3) 发 现 词 项 之 间 的 知识 关联 。 关 联 规则 算法 通 
过 支持 度 和 置信 和 度 的 设置 , 能够 实现 多 元 词汇 关联 的 
挖掘 ,实现 信息 之 间 直 接 或 间接 的 关联 发 现 。 


4 ”实验 与 讨论 


41 实验 数据 及 实验 步骤 

在 国家 图 书馆 慧 科 报刊 数据 库 中 ， 以 题名 和 主题 
依 索 包含 “一 带 一 路 ”的 相关 文献 , 获取 2014 年 全 年 有 
关 “ 一 带 一 路 ”政策 的 新 闻 报道 ,下载 量 为 13 392 篇 ， 
共计 73.7MB。 

在 数据 集 预 处 理 过 程 中 ,本 文 构建 了 自 定义 词 
典 、 去 停 用 词 等 , 并 通过 Python 和 Jieba 分 词组 件 对 
文本 集 进 行 分 词 处 理 。 对 于 自 定 义 用 户 词 典 , 通过 人 
TII, 提炼 文本 集中 的 专业 词汇 ,如 “一 带 一 路 ”、 
“海上 丝绸 之 路 "“ 丝 绸 之 路 经 济 带 "、“ 中 国 梦 ” 等 词 
项 生成 自 定 义 词典 , 在 预 处 理 中 , 这 些 词 将 不 做 分 词 
处 理 ; 为 有 效 降低 文本 的 维 数 ， 分 词 时 定义 停 用 词 表 ， 
KRU: in. HEC. “晚报 ”“ 本 报 讯 ” 等 新 闻 报 
道中 出 现 的 高 频 无 意义 词汇 。 

4.2 ”文本 主题 挖掘 

文本 主题 的 挖掘 是 实验 的 基础 ， 主题 识别 的 效果 
将 影响 关联 规则 的 实现 。 首 先 将 总 文本 量 的 1/3 作为 
主题 进行 学 习 和 训练 ,然后 对 剩余 文本 进行 主题 识别 ， 
并 获得 相应 的 文本 降 维 描述 。 


文本 的 主题 是 文本 内 容 的 抽象 描述 , 在 LDA 模 
型 中 , 主题 T 的 数量 需要 预先 给 定 , 通常 语 料 集 越 大 
主题 的 数量 越 多 。 本 文 使 用 统计 语言 模型 中 常用 的 评 
价 指标 即 困 惑 度 (Perplexity) 2 确定 最 优 的 主题 数 。 困 
惑 度 是 文档 集中 包含 的 各 句子 相似 性 几何 均值 的 倒 
数 ， 随 句子 相似 性 的 增加 而 逐步 递减 。 困 惑 度 表示 预 
测 数据 时 的 不 确定 度 ， 取 值 越 小 表示 性 能 越 好 。 图 2 
显示 了 对 文本 集合 困惑 度 计算 的 结果 。 和 迭代 1 000 次 ， 
每 个 主题 选择 10 个 主题 词 。 
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0.00009 
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0.00001 
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H2 困惑 度 计算 结 果 


从 图 2 可 以 看 出 , 困惑 度 曲线 在 230 的 位 置 有 一 
个 转折 点 , 随后 趋 于 平稳 ， 因 此 本 文 在 主题 模型 计算 中 
选择 主题 数量 为 230 个 。 其 他 参数 为 ，6 =50/230， 
p —0.01, k=230, 每 个 主题 选 10 个 主题 词 , 迭代 1 000 次 。 

主题 模型 求解 后 ,获取 每 篇 高 概率 的 主题 作为 文 
本 的 降 维 描述 。 对 每 篇 文本 所 计算 的 主题 中 , 选取 概 
率 最 高 的 前 3 个 主题 作为 对 该 篇 文本 的 表示 。 降 维 后 ， 
每 篇 文本 将 由 30 个 主题 词 项 在 语义 维度 上 进行 描述 。 
实验 的 部 分 结果 如 图 3 所 示 : 


方 式 全 球 : ES HR 市 场 阶段 
作用 “合作 丝绸 之 路 经 济 带 ”海上 丝绸 之 路 提出 经 济 
丝绸 之 路 构想 国 建设 贸易 两 国 领域 关系 合作 
中 方 建设 一 带 一 路 中 国 发 展 主席 
2 ”基础 设施 基金 国家 中 国 一 带 一 路 建设 项 目 投资 
成 立 经 路 合作 丝绸 之 路 经 济 带 。 ”海上 丝绸 之 路 提出 经 济 
丝绸 之 路 构想 国 建设 dig 公司 证 券 
行业 股份 受益 板块 基建 上 市 公司 投资 
3 Iff 精神 发 展 一 带 一 路 建设 领导 加 快 
改革 中 央 方式 E A 影响 环境 
市 场 D 作用 ”合作 丝绸 之 路 经 济 带 。 ”海上 丝绸 之 路 提出 
经 济 丝绸 之 路 构想 建设 
4 emm 长 江 区 域 规划 一 带 一 路 建设 国家 发 展 
地 区 推进 工作 推进 神 发 展 一 带 一 路 建设 
领导 加 改革 中 央 合作 丝绸 之 路 经 济 带 EHE 
提出 经 济 丝绸 之 路 构想 国家 建设 贸 
5 "Wk 港口 运输 口岸 货物 铁路 港 集装箱 
通道 航线 产业 打造 重点 创新 项 目 城市 基地 
加 快 生态 提升 历史 xt 世界 传承 超 点 文化 遗产 
丝 路 城市 古代 艺术 


图 3 文本 降 维 后 的 描述 (部 分 ) 


4.3 ”基于 关联 规则 的 主题 深度 挖掘 
对 文本 主题 关联 的 挖 气 ， 本 文采 用 Apriori 算法 。 
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根据 上 述 文本 降 维 的 结 
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， 每 篇 文本 作为 一 项 事务 tt 


其 中 t={wi, wo, ,wj Wi 描述 的 是 文本 中 第 i 个 主题 
词 项 ,对 应 关联 规则 中 的 一 个 项 目 。 
采用 RR 语言 对 降 维 后 的 文本 主题 数据 进行 关联 规 


则 分 析 , 待 分 析 数 据 的 基本 信息 如 表 1 所 示 : 
表 1 待 挖 掘 数 据 的 基本 信息 
项 目 说 明 

文本 数量 (Row) 13391 行 
主题 词 数量 (Item) 1469 项 
fiiit AB E (Sparse Matrix) 380717 
5x: HF (Density) 0.01935385 
平均 每 篇 文本 的 主题 词 数 量 28.43 


运用 关联 规则 进行 关联 挖掘 过 程 中 , 单纯 设 定 最 


小 支持 度 和 最 小 置信 和 度 可 能 会 产生 一 些 价值 并 不 大 的 


规则 。 为 了 有 效 解 决 这 个 问题 , 文献 [14] 引 入 改善 度 
(lift) 的 概念 。 改 善 度 是 采用 相关 分 析 描 述 规 则 内 在 价 
值 的 度量 , 并 描述 项 集 X 对 Y 的 影响 力 的 大 小 。 项 
集 {X} 和 项 集 {Y} 之 间 的 改善 度 可 表示 为 如 下 公式 : 


support(X U Y) 
support(X) x support(Y) 


li&(X 2 Y)- (3) 


可 知 ， 当 liftCX 一 Y)=1， 表 明 {X} {Y 相互 独立 ， 
说 明 两 个 事件 没有 任何 关联 ; 如 果 该 值 小 于 1, Wu 
明 两 个 事件 之 间 是 互相 排斥 的 ; 一 般 认为 ， 当 1ift 的 值 
大 于 3 Hp, 挖掘 的 关联 规则 是 有 价值 的 。 

为 此 , 本 文 在 实验 确定 文本 关联 规则 支持 度 的 时 
候 , 集合 了 改善 度 lift 的 概念 。 通 过 实验 , 不 同 支持 度 
和 置信 度 的 分 布 如 图 4 所 示 。 

4(a) 和 图 4(b) 的 支持 度 值 分 别 为 0.1 $0.2, Bi 
信和 度 值 为 80%; 图 4(c) 和 图 4(d) 的 支持 度 值 分 别 为 0.1 
和 0.2， 置 信 度 的 值 为 95%。 可 以 看 出 ， 当 支持 度 设 定 
为 0.1 时 , 图 4(a) 和 图 4(c) 产 生 的 关联 规则 (rules) 均 超 
过 10 万 条 , 支持 度 设 定 为 0.2 时 ,两 个 实验 (图 4(b) 和 
图 4(d)) 产 生 的 规则 也 均 超 过 1 万 条 。 从 规则 可 视 化 
分 布 来 看 , 图 4(b) 绝 大 多 数 的 高 强度 关联 规则 的 lift 
值 超过 3, 且 具 有 更 高 的 置信 和 度 。 因 此 本 文 在 文本 主 
题 关联 挖掘 中 采用 图 4(b) 的 参数 设 定 进行 。 

通过 实验 , 本 文 共 得 到 10 228 条 规则 , 平均 置信 
度 为 0.9982, 平均 改善 度 为 3.862。 在 对 规则 进行 排序 
处 理 ， 对 高 关联 规则 的 信息 进行 人 工 处理 后 , 得 到 的 
信息 如 表 2 所 示 。 
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15 20 25 30 35 40 45 
图 4 支持 度 和 置信 度 值 可 视 化 效果 
表 2 主题 关联 挖掘 的 结果 (部 分 高 关联 规则 展示 ) 


Lhs(left-hand-side) Rhs(right-hand-side) lift 
{贸易 ， 丝 绸 之 路 } => {构想 } 4.598558 
{贸易 ， 丝 绸 之 路 经 济 带 } => {构想 } 4.598558 
{合作 ， 贸易} => {构想 } 4.598558 
{ 带 来 ， 全球} => {模式 } 4.598558 
{环境 ,全 球 } => 人 方式 } 4.598558 
{贸易 ， 丝 绸 之 路 ,提出 } => {构想 } 4.598558 
(US, 丝绸 之 路 经 济 带 , 提出 } => {构想 } 4.598558 
{国家 ,贸易 ,提出 } => {构想 } 4.598558 
人 海上 丝绸 之 路 ， 贸 易 ， 丝 绸 之 路 } => {构想 } 4.598558 
{合作 ， 贸 易 ， 丝 绸 之 路 } => {构想 } 4.598558 
{ 经 济 ， 贸 易 ， 丝 绸 之 路 } => {构想 } 4.598558 
{ 国 家 ， 贸 易 ， 丝 绸 之 路 } => { 构 想 } 4.598558 
{ 带 来 ， 环 境 ， 全 球 } 一 { 模 式 } 4.598558 
{国家 , 海上 丝绸 之 路 ,合作 ,建设 ， 经济， 丝绸 之 路 ,丝绸 之 路 经 济 带 ， 提 出 => {海上 丝绸 之 路 } 4.568748 
{构想 ， 国家, 海上 丝绸 之 路 , 合作 ， 建设, 经 济 ， 丝 绸 之 路 ,丝绸 之 路 经 济 带 ,提出 } => {贸易 } 4.568748 
GEK, 方式 , 环境 ， 阶段, 模式 ,市场 ， 未来， 影响 } => { 全 球 } 4.182074 
{构想 ， 国家, 合作， 建设 , 经济， 贸易 ,丝绸 之 路 ,丝绸 之 路 经 济 带 ， 提 出 } => { 贸 易 } 4.100122 
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为 了 进一步 分 析 这 些 关 联 规则 所 包含 的 隐 含 主题 
知识 ， 以 改善 度 的 值 作为 标准 对 所 获得 关联 规则 进行 
分 类 分 析 , 进而 发 现 不 同 改善 度 所 对 应 的 主题 关联 规 
则 。 在 提取 主题 关联 过 程 中 , 将 表 2 中 Rhs 作为 主题 
知识 , 通过 筛选 不 同 改善 度 的 数值 ， 获 得 相关 的 数据 ， 
如 表 3 所 示 。 

表 3 不 同 强度 关联 规则 对 应 的 主题 知识 
改善 度 (lifb 取 值 主题 知识 
港口 ， 航线， 货物， 集装箱 ,通道 ， 口 岸 ， 
物流 ， 经济 带 , 地 区 
8<lift<9 企业 ,铁路 ,规划 
7<lift<8 压力 , 增 速 ,风险 , 增长 ,下 行 


lift>9 


基础 设施 ， 基金， 区域, Kd, LS, 券 
6TH wp Vra. 行情 , 指数 
改革 , 产业 ,， 生态， 基地， 提升 ， 打 造 ， 
S<lif<6 板块 ,创新 
方式 , 模式 , 构想 , 环境 ， 未 来 ,贸易 ， 
4«lift«5 丝 路 , 重点 ， 丝 绸 之 路 ,丝绸 之 路 经 济 带 ， 
ERR, 海上 丝绸 之 路 ,推进 
3<lift<4 丝绸 之 路 经 济 带 , 海上 丝绸 之 路 ， 加 快 


从 表 3 可 以 发 现 , 不 同 改善 度 对 应 的 主题 知识 之 
间 存 在 一 定 的 差异 度 , 在 高 改善 度 值 的 规则 中 (lift>8)， 
主题 知识 主要 描述 了 “港口 " “经济 带 “铁路 ”"、"“ 物 
流 ” 等 内 容 ; 在 中 等 改善 度 值 的 规则 中 (5<lift<8), 主题 
知识 主要 描述 了 “基础 设施 ”"、“ 基 金 ”"、“ 产 业 ”、“ 创 新 ” 
等 内 容 ; 而 在 较 低 改善 度 值 的 规则 中 (3<lift<5), 主题 
知识 描述 的 则 为 “构想 *"、“ 贸 易 "、“ 丝 绸 之 路 ”等 内 容 。 
从 改善 度 的 取 值 可 以 看 出 不 同 强度 的 关联 规则 所 对 应 
的 主题 知识 , 这 也 体现 了 有 关 “ 一 带 一 路 "新 闻 报道 中 
不 同 主题 关联 的 强 弱 。 

为 了 进一步 挖掘 不 同 主题 知识 所 对 应 的 描述 信 
息 , 将 表 2 中 Rhs 作为 主题 知识 , 将 Lhs 作为 对 该 主题 
知识 的 描述 , 依据 本 文 方法 计算 获得 有 关 “ 一 带 一 路 ” 
的 相关 新 闻 报道 的 主题 知识 的 描述 ， 如 表 4 所 示 。 

AK 4 可 以 看 出 , “一带 一 路 "新闻 报 道 的 文本 信 
息 中 相关 主题 知识 的 描述 信息 。 从 知识 的 表达 角度 来 
看 ,前 关联 Lhs 是 对 这 些 关 注重 点 的 语义 表述 ,可 以 
看 到 这 些 描述 具有 明显 的 语义 特征 。 从 这 些 描述 中 ， 
可 以 进一步 理解 每 一 个 主题 知识 所 对 应 的 知识 描述 。 
AR 4 中 可 以 发 现 有 关 基 金 的 主题 知识 则 包含 基础 设 
施 建设 以 及 丝 路 投资 项 目 等 ， 而 创新 的 主题 知识 主要 
是 产业 和 生态 项 目 建设 的 内 容 等 。 从 这 些 词 的 关联 关 
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表 4 深度 挖掘 的 结果 (部 分 ) 


主题 知识 知识 描述 

构想 。 国家 ， 提 出 , 经济， 贸易 ， 合 作 ， 丝 绸 之 路 ,丝绸 之 
E 海上 丝绸 之 路 

模式 。 ”方式 , 带 来 环境 未 来 ,影响 ,全球 , 经 济 , TY, 


建设 
全 球 带 来 , 方式 , 环境 ,阶段 , WA, 未 来 ,影响 

交流 举办 ,主题 , 活动 , 合作 , 发展 ,国家 ,建设 

基金 基础 设施 , 成 立 , 丝 路 , 投资, 项 目 , 国家 ,建设 
产业 ,生态 , 基地， 提升 ， 打造， 城市, 重点 ， 加快， 
mA, 建设 
丝绸 之 路 构想 , 贸易 ,提出 ,丝绸 之 路 , 海上 丝绸 之 路 , 合 
经 济 带 E, 经 济 , 发 展 , PE 

国家 , 构想 , 合作 ,建设 , 经 济 ， 丝 绸 之 路 ， 丝绸 之 
路 经 济 带 , 海上 丝绸 之 路 


贸易 


系 中 可 以 更 好 地 理解 每 个 主题 所 对 应 的 知识 描述 。 
表 4 的 结果 实现 了 特定 领域 文本 集合 潜在 知识 的 
RM, 关联 结果 实现 了 语义 维度 对 文本 内 容 的 表示 ， 
这 些 信 息 的 提取 有 助 于 信息 工作 者 发 现 文本 隐 含 的 、 
有 价值 的 知识 , 也 有 助 于 对 特定 领域 知识 的 深入 解 
读 。 可 见 , 通过 关联 规则 不 仅 可 实现 在 海量 文本 中 提 
取 知识 , 而 且 能 有 效 地 实现 知识 之 间 语 义 的 描述 。 


5 结 语 


本 文 提出 将 主题 模型 与 关联 规则 相 结 合 的 处 理 方 
UE, 用 于 挖 气 大 量 文本 中 所 隐 仿 的 主题 联系 , 借助 主 
题 模型 实现 文本 在 语义 空间 的 描述 , 并 成 功 降 维 , 借 
助 关联 规则 的 方法 进一步 挖掘 文本 主题 的 语义 关联 。 
最 后 , 通过 实验 得 到 了 相关 结论 。 本 文 提出 的 方法 , 将 
丰富 文本 信息 的 知识 挖掘 思路 ,并 有 助 于 信息 工作 者 
更 有 效 地 分 析 大 量 文本 所 隐 含 的 知识 。 
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Mining Document Topics Based on Association Rules 
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Abstract: [Objective] This study is to accurately identify potential knowledge correlations among textual information, 


and then enrich the methodology of knowledge mining. [Methods] First, we combined the topic model and association 


rules. Second, used the LDA model to extract topic set from the texts, which not only reduced the textual dimension but 


also realized the semantic space expression. Finally, we analyzed the semantic ties among the topics with association 


rules. [Results] We effectively found the potential knowledge association from the document texts with reasonable 


degrees of support and confidence, and then improved model's “understanding” of the textual message. [Limitations] 


While preprocessing data, the self-defined dictionary posed some negative effects to the results. [Conclusions] The 


proposed method could extract the latent semantic association from unstructured textual information, and then improve 


the performance of knowledge discovery systems. 
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